Método NM

El método NM' o método Naszodi-Mendonca' se puede aplicar en estadística, econometría, economía, sociología y demografía para construir contrafactuales tablas de contingencia. El método encuentra la matriz $X$ ( $X\in \mathbb {R} ^{n\times m}$ ) que es "más cercana" a la matriz $Z$ ( $Z\in \mathbb {N} ^{n\times m}$ denominada la tabla semilla) en el sentido de ser ranked la misma pero con las totales de filas y columnas de una matriz objetivo. $Y$ $(Y\in \mathbb {N} ^{n\times m})$ . Mientras que los totales de filas y columnas de $Y$ son conocidos, la propia matriz $Y$ puede ser desconocida.

Dado que la solución para la matriz $X$ es única, el método NM es una función: X $X={\text{NM}}(Z,Ye_{m}^{T},e_{n}Y):\mathbb {N} ^{n\times m}\times \mathbb {N} ^{n}\times \mathbb {N} ^{m}\mapsto \mathbb {R} ^{n\times m}$ , donde $e_{n}$ es un vector de una fila de tamaño $1\times n$ , mientras que $e_{m}^{T}$ es un vector de una columna de tamaño $m\times 1$ .

El método NM fue desarrollado por Naszodi y Mendonca (2021)^[1] (y aplicada por primera vez por Naszodi y Mendonca (2019)^[2]) para resolver la matriz $X$ en problemas, donde la matriz ${\boldsymbol {Z}}$ no es una muestra de la población caracterizada por los totales de filas y columnas de la matriz $Y$ , sino que representa otra población'.

El procedimiento de ajuste proporcional iterativo (IPF) también es una función:^[3]^[4]^[5]^[6] ${\text{IPF}}(Z,Ye_{m}^{T},e_{n}Y):\mathbb {R} ^{n\times m}\times \mathbb {R} ^{n}\times \mathbb {R} ^{m}\mapsto \mathbb {R} ^{n\times m}$ . Es la operación de encontrar la matriz ajustada ${\boldsymbol {F}}$ ( $F\in \mathbb {R} ^{n\times m}$ ) que cumple un conjunto de condiciones similares a las que cumple la matriz $X$ construido con el método NM. Por ejemplo, matriz $F$ es el más cercano a la matriz ${\boldsymbol {Z}}$ pero con los totales de fila y columna de la matriz de destino ${\boldsymbol {Y}}$ .

${\text{LL}}(Z)={\frac {Z_{1,1}-Q^{-}(Z_{1,1})}{{\text{min}}(Z_{1,.},Z_{.,1})-Q^{-}(Z_{1,1})}}$ , dónde $Z_{1,.}=Z_{1,1}+Z_{1,2}$ ; $Z_{.,1}=Z_{1,1}+Z_{2,1}$ ; $Z_{.,.}=Z_{.,1}+Z_{1,.}$ ; $Q(Z_{1,1})={Z_{1,.}Z_{.,1}}/{Z_{.,.}}$ ; $Q^{-}(Z_{1,1})=int[Q(Z_{1,1})]$ .

El método NM fue desarrollado por Naszodi y Mendonca (2021)^[7] (y aplicado por primera vez por Naszodi y Mendonca (2019)^[8] ) para resolver la matriz $X$ en problemas, donde matriz ${\boldsymbol {Z}}$ no es una muestra de la población caracterizada por los totales de las filas y las columnas de la matriz $Y$ , pero representa otra población.

Su aplicación tenía como objetivo de cuantificar los cambios intergeneracionales en la fuerza de la homofilia educativa y medir así el cambio histórico de la desigualdad social entre los diferentes grupos educativos en los EE.UU. entre 1980 y 2010. Se comprobó que la tendencia de la desigualdad tenía forma de U, lo que respalda la opinión de que con políticas sociales y económicas adecuadas se puede reducir la desigualdad.

Definición de la clasificación de matrices[editar]

La cercanía entre dos matrices del mismo tamaño puede definirse de varias maneras. La distancia euclidiana, y la divergencia de Kullback-Leibler son dos ejemplos bien conocidos.

El método NM es consistente con una definición que se basa en el ordinal índice de Liu-Lu ^[9] que es la versión ligeramente modificada del índice Coleman definido por la Ec. (15) en Coleman (1958).^[10] Según esta definición, la matriz $X$ es la más "cercana" a la matriz $Z$ , si sus valores Liu-Lu son los mismos. En otras palabras, si están clasificadas igual por el índice Liu-Lu ordinal.

Si la matriz $Z$ es una matriz 2-por-2', su índice de Liu-Lu escalar-valorado se define como ${\text{LL}}(Z)={\frac {Z_{1,1}-Q^{-}(Z_{1,1})}{{\text{min}}(Z_{1,.},Z_{.,1})-Q^{-}(Z_{1,1})}}$ , donde $Z_{1,.}=Z_{1,1}+Z_{1,2}$ ; $Z_{.,1}=Z_{1,1}+Z_{2,1}$ ; $Z_{.,.}=Z_{.,1}+Z_{1,.}$ ; $Q(Z_{1,1})={Z_{1,.}Z_{.,1}}/{Z_{.,.}}$ ; $Q^{-}(Z_{1,1})=int[Q(Z_{1,1})]$ .

Siguiendo a Coleman (1958),^[11] este índice se interpreta como el "real menos esperado sobre máximo menos mínimo", donde $Z_{1,1}$ es el valor real de la entrada $1,1$ de la matriz semilla $Z$ ; $Q^{-}$ es su valor esperado (entero) bajo los supuestos contrafactuales de que el total de filas y el total de columnas correspondientes de $Z$ están predeterminados, mientras que su interior es aleatorio. Asimismo, $Q^{-}$ es su valor mínimo si la asociación entre la variable fila y la variable columna de $Z$ es no negativa. Por último, ${\text{min}}(Z_{1,.},Z_{.,1})$ es el valor máximo de $Z_{1,1}$ ( $Z\in \mathbb {N} ^{n\times m}$ ) para un total de filas $Z_{1,.}$ y un total de columnas $Z_{.,1}$ dados.

Para matrices $Z$ de tamaño n por m' ( $n\geq 2$ , $m\geq 2$ ), el índice de Liu-Lu fue generalizado por Naszodi y Mendonca (2021)^[12] a un índice matricial. Una de las precondiciones para la generalización es que la variable fila y la variable columna de la matriz $Z$ tienen que estar ordenadas. Igualar el índice de Liu-Lu generalizado y valorado matricialmente de $Z$ con el de la matriz $X$ es equivalente a dicotomizar su variable fila ordenada y su variable columna ordenada de $(n-1)veces(m-1)$ maneras explotando la naturaleza ordenada de las variables fila y columna. Luego, igualando los índices originales, scalar-valued Liu-Lu indices de las matrices 2-por-2 obtenidas con las dicotomizaciones. Es decir, para cualquier par de $i,j$ ( $i\in \{1,\ldots ,n-1\}$ , y $j\in \{1,\ldots ,m-1\}$ ) se impone la restricción ${\text{LL}}(V_{i}XW_{j}^{T})={\text{LL}}(V_{i}ZW_{j}^{T})$ , donde $V_{i}$ es la matriz $2vecesn$

V_{i}={\begin{bmatrix}\color {red}1&\color {red}...&\color {red}1&\color {blue}0&\color {blue}...&\color {blue}0\\\color {red}0&\color {red}\cdots &\color {red}0&\color {blue}1&\color {blue}\cdots &\color {blue}1\end{bmatrix}}

con su first block siendo de tamaño

2\times i

, y su second block siendo de tamaño

2\times (n-i)

. Del mismo modo,

W_{j}^{T}

es la matriz

m\times 2

dada por la transposición de

W_{j}={\begin{bmatrix}\color {red}1&\color {red}...&\color {red}1&\color {blue}0&\color {blue}...&\color {blue}0\\\color {red}0&\color {red}\cdots &\color {red}0&\color {blue}1&\color {blue}\cdots &\color {blue}1\end{bmatrix}}

con su first block siendo de tamaño

2vecesj

, y su second block siendo de tamaño

2veces(m-j)

.

Restricciones sobre los totales de fila y los totales de columna[editar]

Matriz $X$ debe satisfacer no sólo ${\text{LL}}(V_{i}XW_{j}^{T})={\text{LL}}(V_{i}ZW_{j}^{T})$ sino también el par de restricciones sobre sus totales de fila y totales de columna: $Xe_{m}^{T}=Ye_{m}^{T}$ y $e_{n}X=e_{n}Y$ .

Solución[editar]

Suponiendo que ${\text{LL}}(V_{i}ZW_{j}^{T})\geq 0$ para todos los pares de $i,j$ (donde $i\in \{1,\ldots ,n-1\}$ </math>, y $j\in \{1,\ldots ,m-1\}$ ), la solución para $X$ es única, determinista, y dada por una fórmula de forma cerrada.^[13]

Para matrices $Y$ y $Z$ de tamaño ${\boldsymbol {2\times 2}}$ , la solución es $X_{1,1}={\frac {\left[Z_{1,1}-{\text{int}}\left({Z_{1,\cdot }Z_{\cdot ,1}}/{Z_{\cdot ,\cdot }}\right)\right]\left[{{\text{min}}\left(Y_{1,\cdot },Y_{\cdot ,1}\right)-{\text{int}}\left({Y_{1,\cdot }Y_{\cdot ,1}}/{Y_{\cdot ,\cdot }}\right)}\right]}{{\text{min}}\left(Z_{1,\cdot },Z_{\cdot ,1}\right)-{\text{int}}\left({Z_{1,\cdot }Z_{\cdot ,1}}/{Z_{\cdot ,\cdot }}\right)}}+{\text{int}}\left({Y_{1,\cdot }Y_{\cdot ,1}}/{Y_{\cdot ,\cdot }}\right)$ .

Las otras 3 celdas de <math> X </math> están determinadas unívocamente por los totales de fila y los totales de columna. Así es como funciona el método NM para tablas de semillas de 2 por 2.

Para $Y$ , y $Z$ matrices de tamaño ${\boldsymbol {n\times m}}$ ( $n\geq 2$ , $m\geq 2$ ), la solución se obtiene dicotomizando su variable fila ordenada y su variable columna ordenada de todas las formas significativas posibles antes de resolver $(n-1)(m-1)$ número de problemas de forma 2 por 2. Cada problema se define para un par $i,j$ ( $i\in \{1,...,n-1\}$ y $j\in \{1,...,m-1\}$ ) con ${\text{LL}}(V_{i}XW_{j}^{T})={\text{LL}}(V_{i}ZW_{j}^{T})$ , y los totales de fila y columna objetivo: $V_{i}Xe_{m}^{T}=V_{i}Ye_{m}^{T}$ , y $e_{n}XW_{j}^{T}=e_{n}YW_{j}^{T}$ , respectivamente. Cada problema se resolverá por separado mediante la fórmula para $X_{1,1}$ . El conjunto de soluciones determina $(n-1)(m-1)$ número de entradas de la matriz $X$ . Sus restantes $m+n-1$ elementos están determinados unívocamente por los totales de fila y columna objetivo.

A continuación, veamos cómo funciona el método NM si la matriz $Z$ es tal que la segunda precondición de ${\boldsymbol {{\text{LL}}(V_{i}ZW_{j}^{T})\geq 0}}$ 'no se cumple para ${\boldsymbol {\forall i,j}}$ .

Si ${\boldsymbol {{\text{LL}}(V_{i}ZW_{j}^{T})\leq 0}}$ para todos los pares de ${\boldsymbol {i,j}}$ , la solución para $X$ es también única, determinista y dada por una fórmula de forma cerrada. Sin embargo, el concepto correspondiente de clasificación matricial es ligeramente diferente del discutido anteriormente. Liu y Lu (2006)^[14] lo definen como LL ${\text{LL}}^{-}(Z)={\frac {Z_{1,1}-Q^{+}(Z_{1,1})}{Q^{+}(Z_{1,1})-max(0;Z_{1,.}-Z_{.,2})}}$ https://wikimedia.org/api/rest_v1/media/math/render/svg/6f9bd5b48fe9ecf98c4e0fdcfd8cf15874c77842 , donde $Z_{.,2}=Z_{1,2}+Z_{2,2}$ ; $Q^{+}(Z_{1,1})$ es el menor entero mayor o igual que $Q$ .

Por último, ni el método NM, ni ${\boldsymbol {{\text{LL}}(Z)}}$ está definido si $\exists (i,j)$ par tal que ${\boldsymbol {{\text{LL}}(V_{i}ZW_{j}^{T})>0}}$ , mientras que para otro par de $k,l(\neq i,j)$ ${\boldsymbol {{\text{LL}}(V_{k}ZW_{l}^{T})<0}}$ .

Un ejemplo numérico[editar]

Considere la siguiente matrix $\color {green}Z$ complementado con sus totales de filas y columnas y los objetivos, es decir, los row totals y column totals of matrix $\color {orange}Y$ :

Z	1	2	3	4	TOTAL	OBJETIVO
1	120	70	30	20	240	400
2	50	100	50	35	235	300
3	30	40	75	40	185	150
4	10	20	30	80	140	150
TOTAL	210	230	185	175	800
OBJETIVO	400	300	200	100		1 000

Como primer paso del método NM, matrix $\color {green}Z$ se multiplica por las matrices ${\boldsymbol {V_{i}}}$ , y ${\boldsymbol {W_{j}^{T}}}$ para cada par de $i,j$ ( $i\in \{1,2,3\}$ , y $j\in \{1,2,3\}$ ). Se obtienen las siguientes 9 matrices de tamaño 2-por-2 con sus totales de filas y columnas objetivo:


$i=1,j=1$	1	2	TOTAL	TARGET
1	120	120	240	400
2	90	470	560	600
TOTAL	210	590	800
TARGET	400	600		1 000


$i=1,j=2$	1	2	TOTAL	TARGET
1	190	50	240	400
2	250	30	560	600
TOTAL	440	360	800
TARGET	700	300		1 000

$i=1,j=3$	1	2	TOTAL	TARGET
1	220	20	240	400
2	405	155	560	600
TOTAL	625	175	800
TARGET	900	100		1 000

$i=2,j=1$	1	2	TOTAL	TARGET
1	170	305	475	700
2	40	285	325	300
TOTAL	210	590	800
TARGET	400	600		1 000

$i=2,j=2$	1	2	TOTAL	TARGET
1	340	135	475	700
2	100	225	325	300
TOTAL	440	360	800
TARGET	700	300		1 000

$i=2,j=3$	1	2	TOTAL	TARGET
1	420	55	475	700
2	205	120	325	300
TOTAL	625	175	800
TARGET	900	100		1 000

$i=3,j=1$	1	2	TOTAL	TARGET
1	200	460	660	850
2	10	130	140	150
TOTAL	210	590	800
TARGET	400	600		1 000

$i=3,j=2$	1	2	TOTAL	TARGET
1	410	250	660	850
2	30	110	140	150
TOTAL	440	360	800
TARGET	700	300		1 000

$i=3,j=3$	1	2	TOTAL	TARGET
1	565	95	660	850
2	60	80	140	150
TOTAL	625	175	800
TARGET	900	100		1 000

El siguiente paso es calcular el índice generalizado de Liu-Lu valorado matricialmente ${\text{LL}}({Z})$ , (donde ${\text{LL}}({Z})_{i,j}={\text{LL}}(V_{i}ZW_{j}^{T})$ ) aplicando la fórmula del índice original de Liu-Lu valorado matricialmente scalar-valued Liu-Lu index a cada una de las 9 matrices:

${\text{LL(Z)}}$	$j=1$	$j=2$	$j=3$
$i=1$	0,39	0,54	0,62
$i=2$	0,53	0,44	0,47
$i=3$	0,73	0,61	0,45

Aparentemente, la matriz ${\text{LL}}(Z)$ es positiva. Por lo tanto, se define el método NM. Resolviendo cada uno de los 9 problemas de la forma 2 por 2 se obtienen 9 entradas de la matriz $X$ . Sus otras 7 entradas están determinadas unívocamente por los totales de fila y columna del objetivo. La solución para ${\boldsymbol {X}}$ es:

${X}$	1	2	3	4	TOTAL
1	253,1	91,4	40,5	15,1	400
2	91,1	147,1	39,8	21,9	300
3	39,6	36,8	64,2	9,3	150
4	16,2	24,7	55,5	53,6	150
TOTAL	400	300	200	100	1 000

Otro ejemplo numérico tomado de Abbott et al. (2019)[editar]

Considere la siguiente matrix $\color {green}Z$ complementada con sus totales de fila y totales de columna y los objetivos, es decir, los totales de fila y totales de columna de la matriz. $\color {orange}Y$ :

Z	1	2	3	TOTAL	OBJETIVO
1	1 070	270	20	1 360	1 600
2	300	4 980	560	5 840	5 900
3	20	420	2 360	2 800	2 500
TOTAL	1 390	5 670	2 940	10 000
OBJETIVO	1 390	5 670	2 940		10 000

Como primer paso del método NM, matrix $\color {green}Z$ se multiplica por las matrices ${\boldsymbol {V_{i}}}$ , y ${\boldsymbol {W_{j}^{T}}}$ para cada par de $i,j$ ( $i\in \{1,2\}$ , y $j\in \{1,2\}$ ). Se obtienen las siguientes 4 matrices de tamaño 2-por-2 con sus totales de filas y columnas objetivo:


$i=1,j=1$	1	2	TOTAL	OBJETIVO
1	1 070	290	1 360	1 600
2	320	8 320	8 640	8 400
TOTAL	1 390	8 610	10 000
OBJETIVO	1 390	8 610		10 000


$i=1,j=2$	1	2	TOTAL	OBJETIVO
1	1 340	20	1 360	1 600
2	5 720	2 920	8 640	8 400
TOTAL	7 060	2 940	10 000
OBJETIVO	7 060	2 940		10 000

$i=2,j=1$	1	2	TOTAL	OBJETIVO
1	1 370	5 830	7 200	7 500
2	20	2 780	2 800	2 500
TOTAL	1 390	8 610	10 000
OBJETIVO	1 390	8 610		10 000

$i=2,j=2$	1	2	TOTAL	OBJETIVO
1	6 620	580	7 200	7 500
2	440	2 360	2 800	2 500
TOTAL	7 060	2 940	10 000
OBJETIVO	7 060	2 940		10 000

El siguiente paso es calcular el índice generalizado de Liu-Lu valorado matricialmente ${\text{LL}}({Z})$ , (donde ${\text{LL}}({Z})_{i,j}={\text{LL}}(V_{i}ZW_{j}^{T})$ ) aplicando la fórmula del índice original de Liu-Lu valorado matricialmente scalar-valued Liu-Lu index a cada una de las 4 matrices:

${\text{LL(Z)}}$	$j=1$	$j=2$
$i=1$	0,75	0,95
$i=2$	0,95	0,78

Aparentemente, la matriz ${\text{LL}}(Z)$ es positiva. Por lo tanto, se define el método NM. Resolviendo cada uno de los 4 problemas de la forma 2-por-2 se obtienen 4 entradas de la matriz $X$ . Sus otras 5 entradas están determinadas unívocamente por los totales de fila y columna del objetivo. La solución para ${\boldsymbol {X}}$ es:

${X}$	1	2	3	TOTAL
1	1 101	476	24	1 600
2	271	4 819	809	5 900
3	18	375	2 107	2 500
TOTAL	1 390	5 670	2 940	10 000

Implementación[editar]

El método NM se implementa en Excel,^[15] Visual Basic,^[15] R,^[15] y también en Stata'.^[16]

Aplicaciones[editar]

El método NM puede aplicarse para estudiar diversos fenómenos, como el apareamiento selectivo, la movilidad intergeneracional como un tipo de movilidad social, la segregación residencial, el reclutamiento y la gestión del talento.

En todas estas aplicaciones, las matrices $X$ , $Y$ y $Z$ representan distribuciones conjuntas de entidades emparejadas uno a uno (por ejemplo, maridos y esposas, o hijos primogénitos y madres, o viviendas e inquilinos principales, o directores ejecutivos y empresas, o profesores de ajedrez y sus alumnos más talentosos) caracterizadas bien por una variable categórica dicotómica (por ejemplo, tomando los valores vegetariano/no vegetariano), bien por una variable categórica dicotómica (por ejemplo, tomando los valores vegetariano/no vegetariano). p. ej., toma de valores vegetariano/no vegetariano, Gran Maestro/no), o una variable categórica multinomial ordenada (p. ej., nivel de estudios finales, nivel de habilidad de los esquiadores, nivel de ingresos, categoría de la cuota de alquiler, calificación crediticia, títulos de la FIDE). Aunque el método NM tiene una amplia gama de aplicaciones, todos los ejemplos que se presentarán a continuación tratan del apareamiento asortativo a lo largo del nivel educativo. En estas aplicaciones, no se discute que se cumplan las dos precondiciones (de variable rasgo ordenada, y apareamiento asortativo positivo en todos los grupos educativos).

Supongamos que la matriz $Z$ caracteriza la distribución educativa conjunta de maridos y esposas en Zimbabue, mientras que la matriz $Y$ caracteriza lo mismo en Yemen. La matriz $X$ que se construye con el método NM nos dice cuál sería la distribución educativa conjunta de las parejas en Zimbabue, si las distribuciones educativas de maridos y esposas fueran las mismas que en Yemen, mientras que el deseo global de <a href="./Homogamia_(sociología)" rel="mw:WikiLink" title="Homogamia (sociología)" class="new" typeof="mw:LocalizedAttrs" data-mw-i18n="{"title":{"lang":"x-page","key":"red-link-title","params":["Homogamia (sociología)"]}}">homogamia</a> (también llamado preferencias matrimoniales agregadas en economía, o concordancia matrimonial normas sociales/barreras sociales en sociología) no cambiara.

En una segunda aplicación, las matrices $Z$ e $Y$ caracterizan el mismo país en dos años diferentes. La matriz $Z$ es la distribución educativa conjunta de los recién casados estadounidenses en 2040, donde los maridos pertenecen a la Generación Z y son adultos jóvenes en el momento de la observación. La matriz $Y$ es la misma, pero para la Generación Y observada en el año 2024. Construyendo la matriz $X$ , se puede estudiar en el futuro cuál sería la distribución educativa entre las parejas jóvenes americanas recién casadas si se ordenaran en matrimonios de la misma manera que lo hacen los varones de la Generación Z y sus parejas, mientras que el nivel educativo fuera el mismo que entre los varones de la Generación Y y sus parejas.

En una tercera aplicación, las matrices $Z$ e $Y$ caracterizan de nuevo el mismo país en dos años diferentes. En esta aplicación, la matriz $Z$ es la distribución educativa conjunta de las parejas jóvenes portuguesas (donde la edad de la pareja masculina está entre 30 y 34 años) en 2011. Y $Y$ es la misma pero observada en el año 1981. Se puede pretender construir la matriz $X$ para estudiar cuál habría sido la distribución educativa de las parejas jóvenes portuguesas si se hubieran ordenado en matrimonios como lo hicieron sus compañeros en 2011, mientras que sus distribuciones educativas específicas por género eran las mismas que en 1981.

En cada una de las dos primeras aplicaciones, la matriz $X$ representa una distribución conjunta contrafactual. Puede utilizarse para cuantificar ciertos efectos ceteris paribus. Más precisamente, para cuantificar en una escala cardinal la diferencia entre el grado directamente inobservable de ordenación matrimonial en Zimbabue y Yemen, o en la Generación Z y la Generación Y con una descomposición contrafactual. Para la descomposición, se utiliza la tabla contrafactual $X$ para calcular la contribución de cada una de las fuerzas impulsoras (es decir, la disponibilidad estructural observada de parejas potenciales con diversos niveles educativos que determinan las oportunidades a nivel de población; y las fuerzas impulsoras no estructurales inobservables, por ejemplo, y el de su interacción (es decir, el efecto de los cambios en las preferencias/deseos/normas/obstáculos agregados debidos a los cambios en la disponibilidad estructural) a una estadística observable a escala cardinal (por ejemplo, la proporción de parejas educativamente homogámicas).

La tercera aplicación fue utilizada por Naszodi y Mendonca (2021)^[17] como ejemplo para un contrafactual sin sentido: el nivel educativo ha cambiado tan drásticamente en Portugal a lo largo de las tres décadas estudiadas que este contrafactual es imposible de obtener.

Algunas características del método NM[editar]

En primer lugar, el método NM no arroja una solución significativa si alcanza el límite de su aplicabilidad.^[18] Por ejemplo, en la tercera aplicación, el método NM señala con una entrada negativa en la matriz $X$ que la contrafactual es imposible (véase: AlternativeMethod_US_1980s_2010s_age3035_main. xls Hoja PT_A1981_P2011_Not_meaningful).^[19] En este sentido, el método NM es similar al modelo de probabilidad lineal que señala lo mismo con una probabilidad predicha fuera del intervalo unitario. $[0,1]$ .

En segundo lugar, el método NM conmuta con la fusión de categorías vecinas de la variable fila y la de la variable columna:^[18] ${\text{NM}}(M_{r}Z,M_{r}Ye_{m}^{T},M_{r}e_{n}Y)=M_{r}{\text{NM}}(Z,Ye_{m}^{T},e_{n}Y)$ , donde $M_{r}$ es la matriz de fusión de filas de tamaño $(n-1)\times n$ ; y ${\text{NM}}(ZM_{c},Ye_{m}^{T}M_{c},e_{n}YM_{c})={\text{NM}}(Z,Ye_{m}^{T},e_{n}Y)M_{c}$ , donde $M_{c}$ es la matriz de fusión de columnas de tamaño $m\times (m-1)$ .

En tercer lugar, el método NM funciona incluso si hay entradas nulas en la matriz $Z$ .^[18]

Comparación con el IPF[editar]

El procedimiento de ajuste proporcional iterativo (IPF) también es una función:^[20]^[21]^[22]^[23] ${\text{MEDA}}(Z,Ye_{m}^{T},e_{n}Y):\mathbb {R} ^{n\times m}\times \mathbb {R} ^{n}\times \mathbb {R} ^{m}\mapsto \mathbb {R} ^{n\times m}$ .

Es la operación de encontrar la matriz ajustada ${\boldsymbol {F}}$ ( $F\in \mathbb {R} ^{n\times m}$ ) que cumpla un conjunto de condiciones similares a las que cumple la matriz $X$ construida con el método NM. Por ejemplo, la matriz $F$ es la más parecida a la matriz ${\boldsymbol {Z}}$ pero con los totales de filas y columnas de la matriz objetivo ${\boldsymbol {Y}}$ .

Sin embargo, existen diferencias entre el método IPF y el método NM. El IPF define la cercanía de matrices del mismo tamaño mediante la entropía cruzada, o la divergencia de Kullback-Leibler.^[24] En consecuencia, el concepto de distancia compatible con la IPF entre las matrices de 2 por 2 $F$ y $Z$ es cero, si sus cocientes de productos cruzados^[25] (también conocidos como odds ratio) son iguales: ${F_{1,1}F_{2,2}}/{F_{1,2}F_{2,1}}={Z_{1,1}Z_{2,2}}/{Z_{1,2}Z_{2,1}}$ .^[26] Recordemos que la condición del método NM para igual ranking de matrices $X$ y $Z$ es LL ${\text{LL}}(X)={\frac {X_{1,1}-int[{X_{1,.}X_{.,1}}/{X_{.,.}}]}{{\text{min}}(X_{1,.},X_{.,1})-int[{X_{1,.}X_{.,1}}/{X_{.,.}}]}}={\frac {Z_{1,1}-int[{Z_{1,.}Z_{.,1}}/{Z_{.,.}}]}{{\text{min}}(Z_{1,.},Z_{.,1})-int[{Z_{1,.}Z_{.,1}}/{Z_{.,.}}]}}={\text{LL}}(Z)$ .

El siguiente ejemplo numérico pone de manifiesto que el método IPF y el método NM no son idénticos: ${\text{IPF}}(Z,Ye_{m}^{T},e_{n}Y)\neq {\text{NM}}(Z,Ye_{m}^{T},e_{n}Y)$ . Consideremos la matriz. $\color {Verde}Z$ con sus objetivos:

	1	2	TOTAL	OBJETIVO
1	450	150	600	1 050
2	50	350	400	450
TOTAL	500	500
OBJETIVO	1 000	500		1 500

El método NM da como resultado la siguiente matriz $X$ :

$X$	1	2	TOTAL
1	925	125	1 050
2	75	375	450
TOTAL	1 000	500	1 500

Mientras que la solución para la matriz <math>F</math> obtenida con la IPF es:

$F$	1	2	TOTAL
1	900	150	1 050
2	100	350	450
TOTAL	1 000	500	1 500

El IPF es equivalente a la estimador de máxima verosimilitud^[27] de una distribución conjunta de la población, donde la matriz $F$ (la estimación de la distribución conjunta de la población) se calcula a partir de la matriz $Z$ , la distribución conjunta observada en una muestra aleatoria tomada de la población caracterizada por los totales de filas y columnas de la matriz $Y$ . A diferencia del problema resuelto por la IPF, la matriz $Z$ no se muestrea a partir de esta población en el problema para cuya resolución se desarrolló el método NM. De hecho, en el problema NM, las matrices $Z$ y $Y$ caracterizan dos poblaciones diferentes (ya sea observadas simultáneamente como en la aplicación para Zimbabue y Yemen, u observadas en dos puntos diferentes en el tiempo como en su aplicación para las poblaciones de la Generación Z y la Generación Y). Esta diferencia facilita la elección entre el método NM y el IPF en aplicaciones empíricas.^[28]

Deming y Stephan(1940),^[29] los inventores de la IPF, ilustraron la aplicación de su método en un problema clásico de estimación de máxima verosimilitud, en el que la matriz $Z$ se muestreaba a partir de la población caracterizada por los totales de fila y los totales de columna de la matriz $Y$ . Eran conscientes del hecho de que, en general, la IPF no es adecuada para predicciones contrafácticas: advirtieron explícitamente que su algoritmo "no es útil por sí mismo para la predicción" (véase Stephan y Deming 1940 p. 444).^[29]^[30]

Además, los dominios para los que el IPF y el método NM proporcionan soluciones son diferentes. En primer lugar, a diferencia del método NM, el IPF no proporciona una solución para todas las tablas de semillas ${Z}$ con cero entradas (Csiszár (1975)^[31] encontrado condiciones necesarias y suficientes para aplicar la IPF con tablas generales que tienen cero entradas). En segundo lugar, a diferencia del IPF, el método NM no proporciona una solución significativa para los pares de matrices ${Z}$ y ${Y}$ que definen contrafactuales imposibles. En tercer lugar, la precondición del método NM (de ${\boldsymbol {{\text{LL}}(Z)\geq 0}}$ o ${\boldsymbol {{\text{LL}}(Z)\leq 0}}$ ) no es una precondición para la aplicabilidad del IPF.

Por último, a diferencia de la NM, la IPF no conmuta con la operación de fusión de categorías vecinas de la variable fila y la de la variable columna como se ilustra con un ejemplo numérico en Naszodi(2023) (ver página 10).^[32]

Por esta razón, la tabla transformada obtenida con el IPF puede ser sensible a la elección del número de categorías de rasgos.

Comparación con el enfoque de la distancia euclídea mínima[editar]

El Enfoque de Distancia Euclidiana Mínima (MEDA) (definido por Abbott et al., 2019 siguiendo a Fernández y Rogerson, 2001) es también una función:^[33]^[34]

En primer lugar, MEDA asigna un escalar a la matriz $Z$ : es el peso utilizado para construir la combinación convexa de dos casos extremos (emparejamiento aleatorio y perfectamente asortativo con el par de marginales $(Ze_{m}^{T},e_{n}Z)$ ) minimizando la distancia euclidiana con $Z$ . Por ejemplo, este escalar es $v=0,265$ en el ejemplo numérico tomado de Abbott et al.(2019).^[33]

En segundo lugar, para cualquier par de distribuciones marginales contrafactuales ( $Ye_{m}^{T},e_{n}Y$ ) el MEDA construye la combinación convexa de los dos casos extremos (coincidencias aleatorias y perfectamente asortativas con el par de marginales ( $Ye_{m}^{T},e_{n}Y$ ).

Diferencias entre el NM y el MEDA:
mientras que el NM mantiene inalterada la asortatividad al mantener fijo el índice generalizado de Liu-Lu matricial ${\text{LL}}({Z})$ , el MEDA hace lo propio manteniendo fijo el escalar $v$ .

Para matrices $Y$ , y $Z$ de tamaño $2veces2$ los dos métodos producen la misma tabla transformada siempre que $v$ ordene las tablas de contingencia igual que lo hace el índice de Liu-Lu con valor escalar.^[35]

Sin embargo, para matrices ${Z}$ mayores que 2-por-2, el índice de Liu-Lu generalizado es de valor matricial, por lo que es diferente del de valor escalar $v({Z})$ .

Por lo tanto, la tabla transformada NM también es diferente de la tabla transformada MEDA.

Por ejemplo, en el ejemplo numérico tomado de Abbott et al.(2019), la tabla contrafactual construida por MEDA es la matriz $F$ :

$F$	1	2	3	TOTAL
1	1 081	240	279	1 600
2	217	5 054	629	5 900
3	92	376	2 032	2 500
TOTAL	1 390	5 670	2 940	10 000

La diferencia entre matriz $F$ y matrix $X$ no es despreciable.

Por ejemplo, la proporción de parejas homogámicas es 2 puntos porcentuales menor en la matriz contrafactual $F$ construida por MEDA que en la matrix $Z$ observada. $Z$ , mientras que es 3,4 puntos porcentuales menor en la matriz contrafactual construida por NM $X$ en relación con $Z$ .

Porque el ejemplo de Abbott no es ficticio, sino que se basa en la distribución educativa empírica de las parejas estadounidenses, por tanto la diferencia entre 2 puntos porcentuales y 3,4 puntos porcentuales puede interpretarse como que el MEDA cuantifica los cambios en la desigualdad de una generación a otra como significativamente menores en comparación con el NM.

Enlaces externos[editar]

Bacharach, M. (1965). «Estimación de matrices no negativas a partir de datos marginales (Algoritmo RAS)». En Blackwell Publishing, ed. Revista Económica Internacional 6 (3): 294-310. JSTOR 2525582. doi:10.2307/2525582.

Naszodi, A.; Mendonca, F.. «Un nuevo método para identificar lo que está haciendo la mano invisible de Cupido. ¿Está extendiendo el daltonismo a la vez que nos vuelve más "quisquillosos" con la educación conyugal? [Método Naszodi-Mendonca generalizado (método GNM)]». arXiv:2103.06991

[econ.GN].

Referencias[editar]

↑ Naszodi, A.; Mendonca, F. (2021). «Un nuevo método para identificar el papel de las preferencias maritales en la configuración de los patrones matrimoniales». Journal of Demographic Economics 1 (1): 1-27. doi:10.1017/dem.2021.1.
↑ Naszodi, A.; Mendonca, F. (2019). «Like marries like». Serie de informes sobre políticas de equidad. Archivado desde el original el 16 de abril de 2023. Consultado el 25 de abril de 2023.
↑ Sinkhorn, Richard (1964). “A Relationship Between Arbitrary Positive Matrices and Doubly Stochastic Matrices”. In: Annals of Mathematical Statistics 35.2, pp. 876–879.
↑ Bacharach, Michael (1965). “Estimating Nonnegative Matrices from Marginal Data”. In: International Economic Review 6.3, pp. 294–310.
↑ Bishop, Y. M. M. (1967). «Multidimensional contingency tables: cell estimates». PhD Thesis. Harvard University.
↑ Fienberg, S. E. (1970). «An Iterative Procedure for Estimation in Contingency Tables». Annals of Mathematical Statistics 41 (3): 907-917. doi:10.1214/aoms/1177696968.
↑ Naszodi, A.; Mendonca, F. (2021). «A new method for identifying the role of marital preferences at shaping marriage patterns». Journal of Demographic Economics 1 (1): 1-27. doi:10.1017/dem.2021.1.
↑ Naszodi, A.; Mendonca, F. (2019). «Like marries like». Fairness Policy Brief Series. Archivado desde el original el 16 de abril de 2023. Consultado el 25 de abril de 2023.
↑ Liu, H.; Lu, J. (2006). «Medición del grado de apareamiento asortativo». Economics Letters 92 (3): 317-322. doi:10.1016/j.econlet.2006.03.010.
↑ Coleman, J. (1958). «Análisis relacional: El estudio de las organizaciones sociales con métodos de encuesta». Human Organization 17 (4): 28-36. doi:10.17730/humo.17.4.q5604m676260q8n7.
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Coleman19583
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas NM20213
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas NM20214
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas LL20063
↑ ^a ^b ^c {Naszodi, Anna; Mendonca, Francisco (2021). 2 Código para un nuevo método 2. Mendeley. doi:10.17632/x2ry7bcm95.2.
↑ Naszodi, Anna; Mendonca, Francisco (2023). Código para "UN NUEVO MÉTODO PARA IDENTIFICAR LO QUE ESTÁ HACIENDO LA MANO INVISIBLE DE CUPID. ¿ESTÁ EXTENDIENDO EL DALTONISMO A LA VEZ QUE NOS VUELVE MÁS "QUISQUILLOSOS" SOBRE LA EDUCACIÓN ESPOSA?". Mendeley. doi:10.17632/95k6mmrxvg.
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas NM20215
↑ ^a ^b ^c Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas NM20216
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas code3
↑ Sinkhorn, Richard (1964). "Una relación entre matrices positivas arbitrarias y matrices doblemente estocásticas". En: Annals of Mathematical Statistics 35.2, pp. 876-879.
↑ Bacharach, Michael (1965). "Estimación de matrices no negativas a partir de datos marginales". En: International Economic Review 6.3, pp. 294-310.
↑ Bishop, Y. M. M. (1967). «Tablas de contingencia multidimensionales: estimaciones de celdas». Tesis doctoral. Harvard University.
↑ Fienberg, S. E. (1970). «Un procedimiento iterativo para la estimación en tablas de contingencia». Anales de Estadística Matemática 41 (3): 907-917. JSTOR 2239244. MR 266394. Zbl 0198.23401. doi:10.1214/aoms/1177696968.
↑ Kullback S. y Leibler R.A. (1951) On information and sufficiency, Annals of Mathematics and Statistics, 22 (1951) 79-86.
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Fienberg19703
↑ Naszodi, A. (2023). «El algoritmo iterativo de ajuste proporcional y el método NM: soluciones para dos conjuntos diferentes de problemas». arXiv:2303.05515 [econ.GN].
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Bishop19673
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Naszodi20233
↑ ^a ^b Deming, W. E.; Stephan, F. F. (1940). «Sobre un Ajuste por Mínimos Cuadrados de una Tabla de Frecuencias Muestreada Cuando se Conocen los Totales Marginales Esperados». Anales de Estadística Matemática 11 (4): 427-444. MR 3527. doi:10.1214/aoms/1177731829.
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Naszodi20234
↑ Csiszár, I. (1975). «I-Divergencia de Distribuciones de Probabilidad y Problemas de Minimización». Revistas de Probabilidad 3 (1): 146-158. JSTOR 2959270. MR 365798. Zbl 0318.60013. doi:10.1214/aop/1176996454.
↑ Naszodi, A. (2023). «¿Qué dicen las encuestas sobre la tendencia histórica de la desigualdad y la aplicabilidad de dos métodos de transformación de tablas?». arXiv:2303.05895 [econ.GN].
↑ ^a ^b Abbott, B.; Gallipoli, G.; Meghir, C.; Violante, G.L. (2019). «Política educativa y transferencias intergeneracionales en equilibrio». Journal of Political Economy 127 (6): 2569-2624. S2CID 14693929. doi:10.1086/702241.
↑ Fernández, R.; Rogerson, R. (2001). «Clasificación y desigualdad a largo plazo». The Quarterly Journal of Economics 116 (4): 1305-1341. doi:10.1162/003355301753265589.
↑ {Chiappori, P-A.; Costa-Dias, M.; Meghir, C. (2021). «La medición de la asortatividad en el matrimonio: Un comentario». Cowles Foundation Discussion Paper NO. 2316.

[NM20212-1] Naszodi, A.; Mendonca, F. (2021). «Un nuevo método para identificar el papel de las preferencias maritales en la configuración de los patrones matrimoniales». Journal of Demographic Economics 1 (1): 1-27. doi:10.1017/dem.2021.1.

[NM20192-2] Naszodi, A.; Mendonca, F. (2019). «Like marries like». Serie de informes sobre políticas de equidad. Archivado desde el original el 16 de abril de 2023. Consultado el 25 de abril de 2023.

[3] Sinkhorn, Richard (1964). “A Relationship Between Arbitrary Positive Matrices and Doubly Stochastic Matrices”. In: Annals of Mathematical Statistics 35.2, pp. 876–879.

[4] Bacharach, Michael (1965). “Estimating Nonnegative Matrices from Marginal Data”. In: International Economic Review 6.3, pp. 294–310.

[Bishop1967-5] Bishop, Y. M. M. (1967). «Multidimensional contingency tables: cell estimates». PhD Thesis. Harvard University.

[Fienberg1970-6] Fienberg, S. E. (1970). «An Iterative Procedure for Estimation in Contingency Tables». Annals of Mathematical Statistics 41 (3): 907-917. doi:10.1214/aoms/1177696968.

[NM2021-7] Naszodi, A.; Mendonca, F. (2021). «A new method for identifying the role of marital preferences at shaping marriage patterns». Journal of Demographic Economics 1 (1): 1-27. doi:10.1017/dem.2021.1.

[NM2019-8] Naszodi, A.; Mendonca, F. (2019). «Like marries like». Fairness Policy Brief Series. Archivado desde el original el 16 de abril de 2023. Consultado el 25 de abril de 2023.

[LL20062-9] Liu, H.; Lu, J. (2006). «Medición del grado de apareamiento asortativo». Economics Letters 92 (3): 317-322. doi:10.1016/j.econlet.2006.03.010.

[Coleman19582-10] Coleman, J. (1958). «Análisis relacional: El estudio de las organizaciones sociales con métodos de encuesta». Human Organization 17 (4): 28-36. doi:10.17730/humo.17.4.q5604m676260q8n7.

[Coleman19583-11] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Coleman19583

[NM20213-12] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas NM20213

[NM20214-13] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas NM20214

[LL20063-14] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas LL20063

[code2-15] {Naszodi, Anna; Mendonca, Francisco (2021). 2 Código para un nuevo método 2. Mendeley. doi:10.17632/x2ry7bcm95.2.

[code_GNM2-16] Naszodi, Anna; Mendonca, Francisco (2023). Código para "UN NUEVO MÉTODO PARA IDENTIFICAR LO QUE ESTÁ HACIENDO LA MANO INVISIBLE DE CUPID. ¿ESTÁ EXTENDIENDO EL DALTONISMO A LA VEZ QUE NOS VUELVE MÁS "QUISQUILLOSOS" SOBRE LA EDUCACIÓN ESPOSA?". Mendeley. doi:10.17632/95k6mmrxvg.

[NM20215-17] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas NM20215

[NM20216-18] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas NM20216

[code3-19] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas code3

[20] Sinkhorn, Richard (1964). "Una relación entre matrices positivas arbitrarias y matrices doblemente estocásticas". En: Annals of Mathematical Statistics 35.2, pp. 876-879.

[21] Bacharach, Michael (1965). "Estimación de matrices no negativas a partir de datos marginales". En: International Economic Review 6.3, pp. 294-310.

[Bishop19672-22] Bishop, Y. M. M. (1967). «Tablas de contingencia multidimensionales: estimaciones de celdas». Tesis doctoral. Harvard University.

[Fienberg19702-23] Fienberg, S. E. (1970). «Un procedimiento iterativo para la estimación en tablas de contingencia». Anales de Estadística Matemática 41 (3): 907-917. JSTOR 2239244. MR 266394. Zbl 0198.23401. doi:10.1214/aoms/1177696968.

[24] Kullback S. y Leibler R.A. (1951) On information and sufficiency, Annals of Mathematics and Statistics, 22 (1951) 79-86.

[Fienberg19703-25] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Fienberg19703

[Naszodi20232-26] Naszodi, A. (2023). «El algoritmo iterativo de ajuste proporcional y el método NM: soluciones para dos conjuntos diferentes de problemas». arXiv:2303.05515 [econ.GN].

[Bishop19673-27] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Bishop19673

[Naszodi20233-28] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Naszodi20233

[DS19402-29] Deming, W. E.; Stephan, F. F. (1940). «Sobre un Ajuste por Mínimos Cuadrados de una Tabla de Frecuencias Muestreada Cuando se Conocen los Totales Marginales Esperados». Anales de Estadística Matemática 11 (4): 427-444. MR 3527. doi:10.1214/aoms/1177731829.

[Naszodi20234-30] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Naszodi20234

[csiszar1975-31] Csiszár, I. (1975). «I-Divergencia de Distribuciones de Probabilidad y Problemas de Minimización». Revistas de Probabilidad 3 (1): 146-158. JSTOR 2959270. MR 365798. Zbl 0318.60013. doi:10.1214/aop/1176996454.

[Naszodi2023WP2-32] Naszodi, A. (2023). «¿Qué dicen las encuestas sobre la tendencia histórica de la desigualdad y la aplicabilidad de dos métodos de transformación de tablas?». arXiv:2303.05895 [econ.GN].

[Abbott20192-33] Abbott, B.; Gallipoli, G.; Meghir, C.; Violante, G.L. (2019). «Política educativa y transferencias intergeneracionales en equilibrio». Journal of Political Economy 127 (6): 2569-2624. S2CID 14693929. doi:10.1086/702241.

[FR20012-34] Fernández, R.; Rogerson, R. (2001). «Clasificación y desigualdad a largo plazo». The Quarterly Journal of Economics 116 (4): 1305-1341. doi:10.1162/003355301753265589.

[Ch20212-35] {Chiappori, P-A.; Costa-Dias, M.; Meghir, C. (2021). «La medición de la asortatividad en el matrimonio: Un comentario». Cowles Foundation Discussion Paper NO. 2316.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]